Introduction

Ce projet est réalisé dans le cadre de la matière Visualisation de données enseignée à l’Université de Technologie de Troyes.

Notre analyse porte sur le World Happiness Report, une enquête annuelle qui récolte des données du monde entier pour indiquer comment les gens évaluent leur propre vie dans plus de 150 pays du globe. Le but de notre projet est de concevoir les meilleures visualisations possibles pour analyser les données du World Happiness Report et pour mettre en valeur les informations qui en découlent.

Lien des datasets

Le dernier dataset apporte des indicateurs supplémentaires sur ce qui est susceptible de provoquer le bonheur des populations (prix de la vie, soleil, obésité…). Cependant, il ne comporte uniquement les données de 2021, ainsi nous pourrons seulement le comparer avec le dataset qui comporte les données du World Happiness Report de 2021. Cela nous permettra d’apporter une nouvelle dimension à notre analyse.

Données

Le jeu de données que nous avons choisi d’étudier est issu d’une enquête de référence sur l’état du bonheur dans le monde. Il comporte des données de 2015 à 2021, et classe 155 pays selon leur niveau de bonheur. Il permet d’établir une corrélation entre différents critères (liberté, corruption, cadre de vie…) et le niveau de bonheur qui en découle.

Les jeux de données initiaux comportent 13 variables :

Variable Class Description
country character Nom du pays
region character Région à laquelle le pays appartient
hapiness rank integer Classement du pays sur la base du score du bonheur
hapiness score double Un indicateur mesuré chaque année en posant aux personnes de l’échantillon la question suivante : “Comment évaluez-vous votre bonheur sur une échelle de 0 à 10 où 10 est le plus heureux”
lower confidence interval double Intervalle de confiance inférieur du score de bonheur
upper confidence interval double Intervalle de confiance supérieur du score de bonheur
economy (GPD per capita) double La mesure dans laquelle le PIB contribue au calcul du score du bonheur
family double La mesure dans laquelle la famille contribue au calcul du score du bonheur
health (life expectancy) double La mesure dans laquelle l’espérance de vie a contribué au calcul du score du bonheur
freedom double La mesure dans laquelle la liberté a contribué au calcul du score du bonheur
trust (governement corruption) double La mesure dans laquelle la perception de la corruption contribue au score de bonheur
generosity double La mesure dans laquelle la générosité a contribué au calcul du score de bonheur
dystopia residual double “Résidu” correspondant à l’écart entre le modèle théorique et la réalité, auquel on ajoute un score de dystopie (score d’un pays hypothétique moins bien classé que tous les autre)

Par la suite, nous avons ajouté plusieurs données nécessaires à la création de cartes : les coordonnées géographiques des pays, ainsi que leur géométrie, afin de pouvoir colorier les surfaces des pays sur les cartes.

L’ensemble des données utilisées est disponible dans le dossier /data/

Ces données nous semblent pertinentes dans le cadre d’une analyse car :

  • Elles sont analysables dans le temps
  • Elles sont analysables géographiquement
  • Elles permettent d’établir différents facteurs de contribution au bonheur en fonction des régions du monde, des cultures…

Plan d’analyse

  1. Analyse temporelle : Comment évolue le bonheur moyen au fil des années ? (en regroupant par région, en utilisant des facet charts pour visualiser les différentes années en même temps)

  2. Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ? Pourquoi ? ➡️ Utiliser les facteurs de contribution du score pour mettre en évidence des causes de disparité

  3. Le niveau de bonheur est-il directement corrélé à la liberté des individus ? ➡️ Question extensible à la richesse, à l’espérance de vie…

  4. Quelle combinaison de facteurs hauts entraîne une hausse du bonheur ? Quelle combinaison de facteurs bas entraîne une diminution de celui-ci ? (par exemple: avoir une espérance de vie élevée ET un PIB élevé ET un taux de liberté elevé implique-t-il nécessairement un haut niveau de bonheur, au-dessus d’un certain seuil ?)

Nettoyage des données

Le nettoyage des jeux de données est la première étape du projet, et certainement l’une des plus importantes. Nous nous en sommes rendus compte après avoir essayé de concevoir des graphiques avec les jeux de données bruts : nous avons été très vite restreints, d’un côté car il était impossible d’analyser les données temporellement car les données étaient séparées dans des datasets différents, et de l’autre parce que les noms des variables comportaient des espaces et différaient d’un dataset à l’autre.

Afin de pouvoir travailler efficacement, nous avons opéré le nettoyage suivant :

  1. Nous avons commencé par analyser tous les datasets pour voir si les données nommées de la même manière correspondent à la même chose (ce qui n’était pas toujours le cas). Parfois, la variable “freedom” d’un dataset correspondait à la variable “explained_by_freedom” d’un autre dataset.

  2. Nous avons ensuite renommé toutes les colonnes de tous les datasets de la même manière selon la convention définie ci-dessous.

  3. Nous avons fusionné l’ensemble des datasets de manière à travailler sur un seul tableau propre à l’aide de filtres par la suite. Nous avions au préalable ajouté une variable Year car cette donnée n’était pas fournie à l’intérieur des datasets et nous aurions mélangé toutes les données lors de la fusion des datasets.

  4. Afin de pouvoir travailler avec des cartes, nous avons été contraints d’ajouter pour chaque pays des données géométriques et GPS.

Convention de nommage des colonnes

  • Le nom des colonnes commence par une Majuscule
  • Les espaces sont remplacés par un underscore “_”

I) Analyse temporelle : Comment évolue le bonheur moyen au fil des années ?

Intro de la partie…

Les visualisations réalisées

Mettre les visualisations à la suite avec un texte explicatif à chaque fois

II) Analyse géographique : Y’a-t-il des régions du monde moins heureuses que d’autres ?

Dans cette partie, le but est de déterminer si le bonheur a des préférences géographiques, et d’identifier les critères qui rendent les populations de régions spécifiques plus heureuses que les autres.

Les visualisations réalisées

  1. Un boxplot qui indique la distribution des scores de bonheur de chaque région

  2. Une carte du monde colorée par région en fonction du score de bonheur (avec ggmap ou leaflet)

  3. Faire des scatterplots pour les différents critères en fonction du niveau de bonheur par région (moyenne sur toutes les années ou évolution dans le temps ?)